ارتقاء کیفیت سیستم های بازیابی اطلاعات متنی با استفاده از الگوریتم های خوشه بندی اسناد
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی
- author محسن خزایی
- adviser امین اله مهابادی حسن نادری
- Number of pages: First 15 pages
- publication year 1390
abstract
سیستم های بازیابی اطلاعات، با استفاده از یک استراتژی بازیابی خودکار تلاش می کنند اسناد مرتبط بیشتری را برای کاربر نمایان ساخته به نحوی که تا حد ممکن هیچ سند غیر مرتبطی بازیابی نگردد. در شاخه بازیابی اطلاعات، ارزیابی سیستم بازیابی اطلاعات نقشی اساسی ایفا می کند. در این خصوص، ارزیابی میزان کیفیت و اثربخشی بازیابی مهمترین نوع ارزیابی سیستم می باشد که تعیین کننده آن است که یک سیستم یا الگوریتم، تا چه اندازه قادر به انطباق، بازیابی و رتبه بندی اسنادی است که به نیاز اطلاعاتی کاربر مرتبط می باشد. هرچه تعداد اسناد مرتبط بازیابی شده توسط سیستم بیشتر و تعداد اسناد نامرتبط کمتر باشد، رضایت کاربر بالاتر بوده و میزان کیفیت سیستم بیشتر خواهد بود. در این پژوهش برای افزایش میزان دقت و اثربخشی سیستم بازیابی اطلاعات از روش های خوشه بندی اسناد استفاده شده، به ترتیبی که سعی می گردد قبل از این که کاربر نیاز اطلاعاتی خود را در قالب یک پرس و جو بیان نماید، اسناد داخل مجموعه به چندین گروه تقسیم شود بطوری که اسناد داخل یک خوشه نسبت به هم دارای بیشترین مشابهت بوده و در عین حال بیشترین فاصله را نسبت به اسناد سایر خوشه ها دارا باشند. بدین ترتیب، پرس و جوی کاربر ابتدا به نزدیک ترین خوشه مرتبط شده، سپس تنها اسناد داخل آن خوشه با توجه به میزان مشابهتشان با پرس و جو، رتبه بندی و در نتایج سیستم بازیابی ظاهر می گردند. بدین ترتیب اسنادی که از لحاظ ظاهری و لغوی شباهت چندانی با پرس و جو نداشته اما از نظر محتوی، نیاز اطلاعاتی کاربر را برآورده می سازند نیز در نتایج جستجو ظاهر می گردند. برای این منظور روش خوشه بندی جدیدی با استفاده از الگوریتم یافتن تطابق ماکزیمم در گراف دوبخشی معرفی شده و نشان می دهیم خوشه بندی اسناد و اعمال آن در سیستم بازیابی اطلاعات به بهبود نتایج در مقایسه با سیستم های سنتی می انجامد. بمنظور ارزیابی روش خوشه بندی و مقایسه آن با روش های موجود، از پیکره های استاندارد 20newsgroups، webkb و reuters 21578 و یک پیکره ساختگی استفاده شده است. همچنین جهت مقایسه سیستم بازیابی اطلاعات مبتنی بر خوشه بندی با روش سنتی، از پیکره استاندارد cranfield استفاده شده است. نتایج بدست آمده نشان می دهد روش خوشه بندی پیشنهادی دارای خروجی مطلوبی بوده و استفاده از آن در سیستم بازیابی اطلاعات، منجر به افزایش میزان دقت سیستم، در مقایسه با حالت سنتی خواهد شد.
similar resources
استفاده از راهکار شبکه عصبی در بازیابی اطلاعات متنی
با افزایش حجم اطلاعات و با پیشرفت تکنولوژی، استفاده از الگوریتمهای سنتی جهت بازیابی سریع دادهها کافی نبوده و بهکارگیری راهکارهای نوین را جهت تسریع در بازیابی اطلاعات مربوط طلب میکند. در روشهای سنتی، پردازش اطلاعات، معمولا بهصورت ترتیبی صورت میگیرد. در روشهای جدید بازیابی اطلاعات، علاوه بر سرعت بازیابی، درک محتوای مدرک و بازیابی مدرک مربوط حائز اهمیت میباشد. بهکاربردن روشهای هوش مصنوع...
full textیک روش ترکیبی خوشه بندی مبتنی بر الگوریتم ژنتیک با استفاده از عملگر های جدید تغییر
The clustering problem under the criterion of minimum sum of squares is a non-convex and non-linear program, which possesses many locally optimal values, resulting that its solution often being stuck at locally optimal values and therefore cannot converge to global optima solution. In this paper, we introduce several new variation operators for the proposed hybrid genetic algorithm for the cl...
full textآینده سامانههای بازیابی اطلاعات متنی
هدف: شناسایی عوامل مؤثر بر آیندة سامانههای بازیابی اطلاعات متنی هدف این پژوهش است. روششناسی: دادهها از متون و پیمایش نظرات متخصصان بازیابی اطلاعات به روش نمونهگیری هدفمند گردآوری شده است. یافتهها: بُعد فناوری بیشترین تأثیر را بر آیندة سامانههای بازیابی اطلاعات خواهد داشت. بُعد هوش مصنوعی با ضریب 93 مؤثرترین شناخته شد. حق مؤلف در بُعد سیاسی با ضریب86 و وابسته شدن مشاغل به اطلاعات در بُعد...
full textارایه شاخصی جدید جهت سنجش اعتبار خوشه بندی در الگوریتم های خوشه بندی فازی نوع-2
One of the main issues in fuzzy clustering is to determine the number of clusters that should be available before clustering and selection of different values for the number of clusters will lead to different results. Then, different clusters obtained from different number of clusters should be validated with an index. But so far such an index has not been introduced for interval type-2 fuzzy C...
full textجداسازی خودکار کانی های موجود در مقاطع نازک سنگ ها با استفاده از الگوریتم های پردازش تصویر و خوشه بندی
جداسازی خودکار کانی های موجود در مقاطع نازک با استفاده از روشهای پردازش تصویر، یکی از موضوعاتی است که در سالهای اخیر مورد توجه زمین شناسان قرار گرفته است. سنگها اصلیترین منبع اطلاعاتی زمین شناسان میباشند، و یکی از روشهای متداول مطالعه سنگها، تهیه مقاطع نازک از آنها و بررسی این مقاطع با استفاده از میکروسکوپ های انکساری قطبی کننده نور است. همچنین جداسازی کانی های موجود در مقاطع نازک،...
full textMy Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی
Keywords
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023